谷歌於2026年6月發佈開源語言模型DiffusionGemma,首次將圖像AI擴散機制引入文本生成,打破傳統逐字自迴歸範式。該模型從隨機噪聲迭代優化,並行輸出256個詞塊。經英偉達優化,在單GPU單用戶模式下,運行速度比同類傳統模型快近四倍,如H100顯卡處理單請求時表現顯著提升。
谷歌推出TurboQuant算法,通過PolarQuant和QJL技術,將大語言模型推理中的鍵值緩存內存需求降低至少6倍,在H100 GPU上注意力計算速度提升最高8倍,且保持零精度損失。這一突破有望降低AI部署成本,加速長上下文應用發展。
李飛飛團隊推出RTFM模型,實現3D世界實時生成與交互,在單個H100 GPU上保持持久性和3D一致性,確保幾何、物體位置及外觀穩定,支持反射、陰影等效果,推動技術從概念走向實用。
Cohere發佈Command A Reasoning語言模型,專爲商業高難度推理任務設計。該模型在代理工作流、端到端系統構建和大文檔分析方面表現優異,在BFCL-v3等多項基準測試中超越其他私有模型。支持H100/A100 GPU運行,具備強大技術能力。
即時對比各雲服務提供商H100、H200等GPU實例價格,找最優方案。
提供高性能GPU出租服務,包括B200、H200、RTX4090、H100等型號。即時部署,價格透明。
Openai
$2.8
輸入tokens/百萬
$11.2
輸出tokens/百萬
1k
上下文長度
-
Google
$0.7
Bytedance
$0.8
$2
128
Alibaba
$0.4
$0.75
256
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
$1
$4
$1.8
$5.4
16
Tencent
32
FastVideo
FastVideo團隊推出的圖像轉視頻模型,屬於CausalWan2.2 I2V A14B系列,支持8步推理,能適配從H100到4090等多種GPU,也支持Mac用戶使用。
pytorch
這是由PyTorch團隊使用torchao進行量化的Qwen3-8B模型,採用int4僅權重量化和AWQ算法。該模型在H100 GPU上可減少53%顯存使用並實現1.34倍加速,專門針對mmlu_abstract_algebra任務進行了校準優化。
jet-ai
Jet-Nemotron-4B是NVIDIA推出的高效混合架構語言模型,基於後神經架構搜索和JetBlock線性注意力模塊兩大核心創新構建,在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等開源模型,同時在H100 GPU上實現了最高53.6倍的生成吞吐量加速。
Jet-Nemotron是一個新型混合架構語言模型家族,超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等最先進的開源全注意力語言模型,同時實現了顯著的效率提升——在H100 GPU上生成吞吐量最高可達53.6倍加速。
Mungert
基於Meta Llama-3.3-70B-Instruct的大語言模型,經過多階段訓練優化,在推理、聊天等任務上表現出色,支持多種語言,適用於多種AI應用場景。採用神經架構搜索技術優化,能夠在單個H100-80GB GPU上高效運行。